imaginea însumează apoi intensitățile ponderate ale punctelor pentru a obține un punctaj pentru fiecare clasă Astfel, deoarece trei și cinci diferă doar în câteva puncte, modelul le va confunda cu ușurință Principala diferență dintre trei și cinci este poziția linie mică care leagă linia superioară de arcul inferior Dacă dacă desenați un deplasând ușor conexiunea spre stânga, atunci clasificatorul îl poate recunoaște ca un și invers că sunt bine centrate și nu prea rotite Poate acest lucru Metoda va ajuta, de asemenea, la reducerea altor erori Până în prezent, fiecare probă a fost întotdeauna atribuită unei singure clase În unele cazuri, poate fi de dorit ca clasificatorul să returneze mai multe clase pentru fiecare probă De exemplu, luați clasificator de recunoaștere a feței: ce ar trebui să facă într-o situație dacă recunoaște mai multe persoane în aceeași fotografie? Desigur, trebuie să atașeze o etichetă pentru fiecare persoană recunoscută Să presupunem că clasificatorul a fost antrenat să recunoască trei fețe, Alice, Bob și Charlie; mai târziu, când vede fotografia Dar nu uitați că creierul nostru este un sistem fantastic de recunoaștere a modelelor și sistemul nostru vizual face o mulțime de pre-procesare complexe înainte ca orice informație să intre în conștiința noastră, așa că faptul că totul pare simplu nu este deloc nu înseamnă că așa este Partea I a Fundamentelor învățării automate Alice și Charlie, atunci ar trebui să producă [ , , ] (adică „Alice da, Bob nu și Charlie da”) Un sistem de clasificare de acest fel care produce un setați etichete binare, numite sistemul În acest moment, nu vom aprofunda în recunoașterea feței, dar, în scopuri ilustrative, luați în considerare un exemplu mai simplu: KNeighborsClassifier ; () ( , y m> l ) Codul de mai sus creează o matrice care conține două etichete țintă pentru fiecare imagine a unei cifre: prima etichetă indică dacă cifra este mare ( , sau ) și a doua indică dacă cifra este impară Instanța clasificatorului este creat (care acceptă clasificarea cu mai multe valori, dar nu toți clasificatorii fac acest lucru), care este antrenat folosind o serie de obiective multiple Acum puteți face o predicție; rețineți că tiparește două etichete: knn elf predict ( ]some digit]) aggary([[False, True]], dtype=bool) Și predicția este corectă! Numărul este de fapt mic (fals) și impar (adevărat) Există multe modalități de a evalua un clasificator cu mai multe valori și alegerea metricii potrivite este foarte dependentă de proiect De exemplu, o abordare este definirea unei măsuri (sau orice altă măsurătoare pentru clasificatorii binari) pentru fiecare etichetă individuală , care au fost discutate mai devreme) și apoi pur și simplu calculați scorul mediu Următorul cod calculează scorul mediu pentru toate etichetele: y train knn pred = c - os:; val p;-e;iict(' ' t t :ai c , y ultila ;- !, c = ) scor(y multilabel, y t zіpkshi , average- macro ) ce ar putea fi greșit În special, dacă există sunt mult mai multe fotografii cu Alice decât Chapter Classification https://neculaifantanaru com/en/qualities-of-a-leader-charisma html | Bob sau Charlie, atunci puteți acorda mai multă pondere scorului clasificatorului din fotografiile lui Alice O opțiune simplă este să acordați fiecărei etichete o greutate egală cu ea însăși (adică, numărul de mostre cu acea etichetă țintă) Vom discuta aici, este numit (sau doar ( lassif )) Aceasta este doar o generalizare a clasificării cu mai multe valori, în care fiecare etichetă poate fi multiclasă (adică capabilă să aibă mai mult de două valori posibile) În scopuri de ilustrare, să construim un sistem care elimină zgomot în imagini La intrare, va fi obținută o imagine zgomotoasă a unei cifre și (în perspectivă) va produce o imagine curată a unei cifre reprezentată ca o matrice de intensități a pixelilor, la fel ca în cazul imaginilor MNIST, pixelii variază de la până la ) Astfel, acesta este un exemplu de sistem de multe clasificare în linie Granița dintre clasificare și regresie este uneori neclară, ca în exemplul de mai sus Poate că predicția intensității pixelilor este mai aproape de regresie decât de clasificare De asemenea, sistemele cu mai multe ieșiri nu se limitează la probleme de clasificare; ați putea chiar să aveți un sistem care scoate mai multe etichete per probă, inclusiv etichete de clasă și etichete de valoare Începeți prin a crea un set de antrenament și de testare prin luarea de imagini MNIST și adăugarea de zgomot la intensitățile pixelilor acestora folosind o funcție de la NumPy Imaginile țintă vor fi imaginile sursă : Biblioteca Scikit-Learn oferă mai multe alte opțiuni pentru valorile medii și clasificatoare cu mai multe valori; Pentru mai multe informații, consultați documentația Partea I Fundamentele învățării automate , (Ier , , (len , Să aruncăm o privire la imaginea din setul de testare cu un singur ochi (da, băgăm nasul în datele testului) , așa că acum ar trebui să vă încruntați amenințător): stânga arată o imagine de intrare zgomotoasă și dreapta arată o imagine țintă curată Antrenați un clasificator și curățați imaginea: inde ]]) plot digit (c(,ean digi; ) Arată destul de aproape de Scopul! Acest lucru completează călătoria noastră de clasificare Acum ar trebui să știți cum să alegeți valori bune pentru problemele de clasificare, să setați raportul corect de precizie/rechemare, să comparați clasificatoare și, în general, să construiți sisteme eficiente de clasificare pentru o varietate de probleme Capitolul Clasificare | Încercați să construiți un clasificator pentru setul de date MNIST care realizează corectitudine pe setul de testare Under basm: această sarcină se va descurca bine; trebuie doar să găsiți valorile adecvate de hiperparametru (utilizați o căutare în rețea hiperparametrică) și să scrieți o funcție care poate muta imaginea MNIST în orice direcție (stânga, dreapta, sus sau jos) cu un pixel Apoi, pentru fiecare imagine în setul de antrenament, creați patru copii offset (una pentru fiecare direcție) și adăugați-le la setul de antrenament În cele din urmă, antrenați cel mai bun model al dvs pe acest set de antrenament extins și măsurați corectitudinea acestuia pe setul de testare Ar trebui să observați că modelul funcționează chiar mai bine! Această tehnică de creștere artificială a setului de antrenament se numește sau ( Luați setul de date de pe site-ul web Kaggle Un loc bun pentru a începe ar fi ) Construiți un clasificator de spam (un exercițiu mai avansat) o Despachetați seturile de date și familiarizați-vă cu formatul de date, o Împărțiți seturile de date într-un set de antrenament și într-un set de testare o Creați o conductă de pregătire a datelor pentru a transforma fiecare mesaj de e-mail într-un vector de caracteristici Canalul dvs de pregătire a datelor trebuie să transforme mesajul de e-mail într-un vector (rar) care indică prezența sau absența fiecărui posibil cuvânt De exemplu, dacă toate mesajele de e-mail conțin numai Puteți aplica o funcție din modul De exemplu, deplasează imaginea cu un pixel în jos și un pixel la dreapta Partea I Fundamentele învățării automate patru cuvinte, „Bună ziua”, „cum”, „sunt”, „tu”, apoi mesajul „Hello you Hello Hello you” va fi convertit într-un vector [ , , , ] (adică [„Bună ziua” este prezent, „cum” este absent, „ahe” este absent, „tu” este prezent]), sau [ , , , ] dacă preferați să numărați numărul de apariții ale fiecărui cuvânt o Poate doriți să adăugați hiperparametri la conducta de pregătire a datelor pentru a controla dacă să analizați anteturile mesajelor de e-mail, caracterele fiecărui mesaj în minuscule, dacă să eliminați caracterele de punctuație, dacă să înlocuiți adresele URL cu șirul „URL”, dacă să înlocuiți toate numerele cu șirul „NUMĂR”, sau chiar dacă să efectuați (stemming), adică omiterea terminațiilor de cuvinte (mai multe biblioteci Python sunt disponibile pentru aceasta) o Apoi încercați niște clasificatoare și vedeți dacă puteți construi un clasificator grozav de spam cu scoruri ridicate de reamintire și acuratețe Soluțiile la exerciții sunt disponibile în caietele Jupyter online la Chapter Classification | CAPITOLUL Antrenamentul modelelor Până acum, am tratat modelele ML și algoritmii lor de învățare în primul rând ca cutii negre, am optimizat sistemul de regresie, am îmbunătățit clasificatorul de imagini cu numere și chiar am construit un clasificator de spam de la zero, fără să știm cum funcționează de fapt situații în care nu trebuie să cunoașteți deloc detaliile de implementare Cu toate acestea, o bună înțelegere a modului în care funcționează, vă poate ajuta să vizați rapid modelul potrivit, să utilizați algoritmul de învățare potrivit și să alegeți setul optim de hiperparametri pentru dezvoltarea problemei în cauză, construcție și instruire rețele neuronale (discutate în partea a II-a a cărții) În acest capitol, vom începe prin a explora , unul dintre cele mai simple modele disponibile Vom discuta două moduri foarte diferite de a-l antrena Aplicând o ecuație directă la , calculând direct parametrii modelului care potrivesc cel mai bine modelul cu setul de antrenament (adică parametrii modelului care minimizează valoarea funcției de cost pe setul de antrenament) Folosind o abordare iterativă de optimizare numită (Coborâre gradient - ) care ajustează treptat parametrii modelului pentru a minimiza valoarea costului funcția pe setul de antrenament, în eventual convergerea către același set de parametri ca în prima metodă Vom lua în considerare câteva opțiuni de coborâre a gradientului, care vor fi utilizate periodic la studierea rețelelor neuronale din partea a II-a: ) și stocastică (GD stocastică) supraadaptarea seturilor de date Deoarece un astfel de model are mai mulți parametri decât un model de regresie liniară, este mai predispus la supraadaptare cu date de antrenament, așa că vom vedea cum să detectăm o astfel de situație folosind și să descriem mai multe trucuri de regularizare, ceea ce poate reduce riscul supraajustării setului de antrenament În concluzie, ne vom uita la alte două modele care sunt utilizate pe scară largă pentru probleme de clasificare: și Există destul de multe ecuații matematice în capitolul care utilizează conceptele de bază de liniară algebră și calcule liniare Pentru a înțelege aceste ecuații, trebuie să știți ce sunt vectorii și matricele, cum să le transpuneți, care este produsul scalar, care este inversul unei matrice și derivatele parțiale Dacă nu sunteți familiarizat cu aceste concepte, atunci consultați tutorialele introductive de algebră liniară și calcul liniar disponibile ca caiete Jupyter în materialele online însoțitoare Dacă sunteți unul dintre acei oameni care chiar nu suportă matematica, parcurgeți oricum acest capitol, sărind peste ecuații; se speră că un text va fi suficient pentru a vă ajuta să înțelegeți majoritatea conceptelor Capitolul a analizat un model de regresie simplu pentru satisfacția cu viața: satisfacția cu viața = + x PIB pe cap de locuitor Partea I Fundamentele învățării automate Acest model este doar o funcție liniară caracteristica PIB-ului pe cap de locuitor și sunt parametri ai modelului De obicei, un model liniar generează o prognoză prin simpla calculare a sumei ponderate a caracteristicilor de intrare plus o constantă numită , numită și , așa cum se arată în ecuația y = O+ #! !+ Ѳ x + + txn y este valoarea prezisă n este numărul de caracteristici x, este valoarea i-a caracteristică este i-a parametru al modelului (inclusiv termenul de părtinire vo și ponderile caracteristicilor Ѳѵ Ѳ , , Ѳp) Acest lucru poate fi scris mult mai compact folosind o formă vectorizată, așa cum se arată în ecuația y \u d /іѳ (x) \u d Ѳt x Ѳ - un model care conține un termen de părtinire Ѳo și ponderi caracteristice de la j la Ѳp Ѳt - transpus (vector-str ok în loc de un vector coloană) x este un eșantion care conține de la x la xn, unde x este întotdeauna egal cu Ѳt x este produsul scalar al lui Ѳt și x hg este o funcție de ipoteză folosind parametrii modelului Ok, avem un model de regresie liniară , dar cum predăm? Amintiți-vă că antrenarea unui model înseamnă stabilirea parametrilor acestuia astfel încât modelul să fie cel mai bine adaptat setului de antrenament În acest scop, avem nevoie mai întâi de o măsură a cât de bine (sau prost) se potrivește modelul cu datele de antrenament În acest capitol, am găsit că cea mai comună măsură este regresia performanței mo- Chapter Training Models | deli este rădăcina pătrată a erorii pătrate medii (RMSE) (vezi ecuația ) Prin urmare, pentru a antrena un model de regresie liniară, trebuie să găsiți o valoare care să minimizeze RMSE În practică, este mai ușor să minimizați (- ) decât RMSE, care va duce la același rezultat (deoarece valoarea care minimizează funcția îi minimizează și rădăcina pătrată) Eroarea MSE a ipotezei de regresie liniară hg pe setul de antrenament X este calculată folosind ecuația /)) Cea mai mare parte a notației a fost introdusă în capitolul (vezi bara laterală „Notație”) Singura diferență este că în loc să scriem pur și simplu hg, subliniind faptul că modelul este parametrizat printr-un vector Pentru a simplifica notația, vom scrie MSE în loc de MSE(X, hg ) Pentru a găsi valoarea care minimizează funcția de cost, există — cu alte cuvinte, o ecuație matematică care dă rezultatul direct Se numește și este reprezentată în ecuația Adesea se întâmplă ca algoritmul de învățare să încerce să optimizeze o altă funcție decât măsura de performanță care este utilizată pentru evaluarea modelului final De obicei, motivele sunt legate de faptul că o astfel de funcție este mai ușor de calculat, are proprietăți discriminatorii convenabile pe care o măsurătoare a performanței nu le are sau este necesară constrângerea modelului în timpul antrenamentului, așa cum va fi arătat în discuția despre regularizare Demonstrarea că o ecuație returnează o valoare care minimizează funcția de cost este în afara domeniului de aplicare al această carte Partea I a noțiunilor de bază ale învățării automate Ѳ este valoarea care minimizează funcția de cost, y este un vector de valori țintă care conține de la la y^m\ Să generăm date care arată ca un test liniar pe această ecuație (Fig ) : - - Y b Acum calculați cu aplicarea ecuației normale Vom folosi o funcție din modulul de algebră liniară inclusă cu NumPy pentru a obține matricea inversă și o metodă de înmulțire a matricei: = [ ( ) , ] # adaugă x = la fiecare probă = (XJo T ) (XJo ) Funcția reală care a fost folosită pentru a genera datele a fost y = + Xj + zgomot gaussian Să vedem ce a găsit y ecuație: ([ , ]) Capitolul Modele de antrenament | Am sperat pentru Ѳ = și j = , nu Ѳo = și = Destul de aproape, dar zgomotul face imposibilă recuperarea parametrilor exacti ai funcției originale În continuare, puteți face predicții folosind: ], ]) = ( ), ] # adaugă x = pentru fiecare probă = ) aggay([ , ]) Să reprezentăm grafic predicțiile acestui model (fig Predicții O' - * Codul echivalent folosind Scikit-Learn arată ceva de genul aceasta: Rețineți că Scikit-Learn separă termenul de părtinire de ponderile caracteristicilor Partea I Fundamentele învățării automate ( , aggay([ ])) aggay([ , ]) Ecuația normală calculează inversul lui Xm -X care este o matrice php (unde este numărul de caracteristici) inversul unei astfel de matrice este de obicei în jurul O(u - ) la O(u ) (în funcție de privind implementarea) Cu alte cuvinte, dacă dublați numărul de caracteristici, atunci înmulțiți timpul de calcul cu o valoare de la aproximativ = la = Ecuația normală devine foarte lentă când numărul de caracteristici este foarte z crește (pentru a spune, până la ) Pe partea pozitivă, această ecuație este liniară în raport cu numărul de eșantioane din setul de antrenament (O(m)) și, prin urmare, se ocupă eficient de seturi de antrenament mari, doar dacă acestea se pot potrivi în memorie, totuși, după antrenamentul unui model de regresie liniară (folosind o ecuație normală sau orice alt algoritm), predicția va fi foarte rapidă: complexitatea de calcul este liniară atât în ​​ceea ce privește numărul de eșantioane pe care să se facă predicții, cât și numărul de caracteristici Cu alte cuvinte, a face predicții pe un număr de două ori mai mare de eșantioane (sau de două ori mai mult decât numărul de caracteristici) va dura aproximativ de două ori mai mult Acum vom analiza modalități complet diferite de a antrena un model de regresie liniară, mai potrivite atunci când există sunt un număr mare de caracteristici sau prea multe mostre în setul de antrenament pentru a se potrivi în memorie Capitolul Modele de antrenament | este cel mai general algoritm de optimizare capabil să găsească soluții optime la o gamă largă de probleme Ideea de bază a coborârii gradientului este ajustarea iterativă a parametrilor pentru a minimiza funcția de cost Să presupunem că ești pierdut în munți în ceață deasă; poti simti doar abruptul solului sub picioare O strategie buna pentru a ajunge rapid in fundul vaii presupune deplasarea in jos pe cea mai abrupta panta (nu face asta in munti adevarati, pentru ca rapid nu este sigur; urmati potecile indicate pe hartă -) Exact asta face: măsoară gradientul local al funcției de eroare aplicată vectorului parametru și se deplasează în direcția gradientului descrescător Odată ce gradientul ajunge la zero, ai atins minimul! Mai exact, începi prin a umple vectorul cu valori aleatorii (t n ) Apoi îl îmbunătățești treptat, făcând câte un pas mic la un moment dat și la fiecare pas încercând să reducă funcția de cost (de exemplu, MSE) până când algoritmul este la minim (Fig ) Important, parametrul în este dimensiunea pasului definit de hiperparametru Dacă rata de învățare este prea mică, atunci algoritmul va trebui să treacă prin mai multe iterații pentru reducerea, ceea ce va dura mult timp (Fig ) valoarea inițială Partea I Fundamentele costurilor învățării automate Pe de altă parte, dacă rata de învățare este prea mare, atunci puteți sări peste vale și să ajungeți pe cealaltă parte, posibil chiar mai mare decât erați înainte Acest lucru poate face algoritmul divergent, rezultând în valori din ce în ce mai mari și eșecul de a găsi o soluție bună (Fig ) În cele din urmă, nu toate funcțiile de cost arată exact ca niște boluri obișnuite Pot exista depresiuni, margini, platouri și o mare varietate de zone neregulate forma polară, care fac extrem de dificilă convergerea la un minim Figura ilustrează două probleme majore cu: dacă inițializarea aleatorie pornește algoritmul din stânga, atunci acesta va converge către un punct care nu este așa Capitolul Modele de antrenament | bine ca Dacă algoritmul începe din dreapta, atunci va petrece foarte mult timp traversând platoul și dacă se oprește prea devreme, minimul global nu va atinge niciodată minimul minim Din fericire, funcția de cost MSE pentru un model de regresie liniară este , adică dacă alegeți oricare două puncte de pe curbă, atunci segmentul de dreaptă care le leagă nu traversează niciodată curba Rezultă că nu există minime locale, ci doar un minim global De asemenea, reprezintă cu o pantă care nu se schimbă niciodată pe neașteptate Cele două fapte menționate sunt de mare importanță: coborârea în gradient este garantată să se apropie în mod arbitrar de minimul global (dacă așteptați suficient de mult și rata de învățare nu este prea mare) Funcția de cost este de fapt în formă de bol, dar poate fi un bol alungit dacă scalele caracteristicilor sunt foarte diferite Figura arată coborârea gradientului pe setul de antrenament, unde caracteristicile și au aceeași scară (stânga), și pe setul de antrenament, unde caracteristica conține valori mult mai mici decât caracteristica (dreapta) Formal vorbind, derivata sa este ( și ) Deoarece caracteristica este mai mică, este necesară o modificare mai mare pentru a afecta costul funcția, care explică alungirea bolului de-a lungul axei Partea I Bazele învățării automate După cum puteți vedea, în stânga, algoritmul de coborâre a gradientului se grăbește direct la minim, ceea ce îl face să ajungă repede la el, iar în dreapta, primul se deplasează într-o direcție care este aproape perpendiculară pe direcția minimului global și se termină cu un marș lung de-a lungul unei văi aproape plane toate caracteristicile au o scară similară (de exemplu, folosind clasa din Scikit-Learn), altfel va dura mult mai mult pentru a converge Diagrama din figură demonstrează, de asemenea, că faptul că antrenarea unui model înseamnă găsirea unei combinații de parametri ai modelului care minimizează functia (pe setul de antrenament) Aceasta este o căutare în model: cu cât modelul are mai mulți parametri, cu atât vor fi mai multe dimensiuni în spațiul parametrilor și căutarea va fi mai dificilă: este mult mai dificil să cauți un ac într-un car de fân -dimensional decât într-unul tridimensional Din fericire, deoarece funcția de cost convexă în cazul regresiei liniare, acul se află chiar în partea de jos a vasului Pentru a implementa coborârea gradientului, trebuie să calculați gradientul funcția de cost în raport cu fiecare parametru al modelului Cu alte cuvinte, trebuie să calculați cât de mult se va schimba funcția de cost cu o modificare mică Rezultatul se numește Acest lucru este similar cu modul în care se pune întrebarea: „Care este unghiul a muntelui sub picioarele mele dacă mă confrunt cu Head Model Training | est?”, apoi setați-o cu fața spre nord (și așa mai departe pentru toate celelalte dimensiuni, dacă vă puteți imagina o lume cu mai mult de trei dimensiuni) Ecuația calculează derivata parțială a funcției de cost în raport cu parametrul , cunoscut sub numele de ^MSE ^MSE(e) = A (ei- lW /))x(o În loc să calculați aceste derivate parțiale individual, puteți utiliza ecuația pentru a le calcula pe toate simultan (gradient veci ), cunoscută sub numele de VgMSE , conține toate derivatele parțiale ale funcției de cost (una pentru fiecare parametru de model) cu setul complet de antrenament X la fiecare pas de coborâre a gradientului! De aceea algoritmul se numește : la fiecare pas consumă un lot întreg de date de antrenament Ca ca urmare, este extrem de lent pe seturi de antrenament foarte mari (dar ne vom uita în curând la algoritmi de coborâre a gradientului mult mai rapizi) Cu toate acestea, coborârea gradientului se scalează bine în ceea ce privește numărul de caracteristici; antrenarea unui model de regresie liniară cu sute de mii de caracteristici este mult mai rapid cu coborârea gradientului decât cu ecuația normală Partea I Elemente de bază Învățați automat Având în vedere un vector de gradient care arată în sus, vă deplasați în direcția opusă în jos Aceasta înseamnă scăderea VeMSE din Aici intră în joc rata de învățare: înmulțirea vectorului de gradient cu dă dimensiunea pas în jos ( ecuația ) (pasul următor) = V MSE Să aruncăm o privire la o implementare rapidă a acestui algoritm: eta = # rata de învățare J i:er ation: = m = tasta = ex random randn # iterație de inițializare aleatorie în range(n iterație) gradienți = /m * X b T dot(X b dot(theta) - y) theta = theta - eta * gradienți Sarcina nu a fost prea dificilă! Să ne uităm la valoarea rezultată a lui ti t : arr ( [ , ]) Hei, exact asta a găsit ecuația normală! Coborârea în gradient funcționează excelent Dar dacă aplicăm o rată de învățare diferită? Figura prezintă primii pași ai coborârii gradientului folosind trei rate de învățare diferite (linia punctată reprezintă punctul de plecare) În stânga, rata de învățare este prea mică: în cele din urmă algoritmul va ajunge la soluție, dar va dura mult timp la mijloc, rata de învățare arată destul de bine: algoritmul converge către soluție în doar câteva iterații În dreapta, rata de învățare este prea mare: algoritmul diverge, sărind aleatoriu dintr-un loc în altul și, de fapt, depărtându-se mai mult de soluție cu fiecare pas Pentru a găsi o rată bună de învățare, puteți utiliza căutarea prin zăbrele (vezi capitolul ) Aceasta este a șaptea literă din Alphabet Head Training Models | Cu toate acestea, numărul de iterații poate fi limitat dacă se dorește ca căutarea în grilă să poată elimina modelele care durează prea mult pentru a converge S-ar putea să vă întrebați cum să setați numărul de iterații soluția optimă când algoritmul se oprește, dar dacă numărul de iterații este foarte mare, atunci veți pierde timpul împreună cu faptul că parametrii modelului nu se vor mai schimba O soluție simplă este să setați un număr foarte mare de iterații, dar opriți algoritmul de îndată ce vectorul gradient devine mic, adică norma este mai mică decât un număr mic (numit ), deoarece acest lucru se întâmplă atunci când coborârea gradientului a atins (aproape) minimul său rata de învățare fixă ​​va converge în cele din urmă către soluție optimă, dar poate fi necesar să așteptați puțin În funcție de forma funcției de cost, poate fi nevoie de iterații O(/e) pentru a ajunge la optimul în interval Dacă împărțiți toleranța la pentru a avea o soluție mai precisă, atunci algoritmul va trebui să ruleze de aproximativ ori mai mult I Partea I Fundamentele învățării automate Stochastic coborârea gradientului dohastic Principala problemă cu coborârea gradientului în lot este faptul că folosește setul complet de antrenament pentru a calcula gradienții la fiecare pas, ceea ce o face foarte lent în cazul unui set de antrenament mare - ) la fiecare pas este pur și simplu selectează un eșantion aleatoriu din setul de antrenament și calculează gradienții pe baza doar a acestui singur eșantion Evident, algoritmul devine mult mai rapid, deoarece trebuie să manipuleze o cantitate foarte mică de date la fiecare operațiune devine posibil să se antreneze pe seturi gigantice de antrenament, deoarece la fiecare iterație dintr-un singur eșantion ar trebui să fie în memorie (SGD poate fi implementat ca un algoritm de învățare extern) Pe de altă parte, datorită naturii sale stocastice (adică aleatorie), acest algoritm este mult mai puțin normal decât coborârea gradientului de lot: în loc să scadă moderat până când se atinge un minim, costurile funcției vor fi sare în sus și în jos, scăzând doar în medie De-a lungul timpului, algoritmul va fi foarte aproape de minim, dar odată ajuns acolo, salturile vor continua, fără a se stabili niciodată (Fig Costuri optime Învățare externă a fost discutată în capitolul Modele de antrenament) | Atunci când funcția de cost este foarte neregulată (ca în Figura ), acest lucru poate ajuta de fapt algoritmul să iasă din minimele locale, astfel încât coborârea gradientului stocastic are o șansă mai mare de a găsi un minim global decât coborârea gradientului în lot Prin urmare, aleatorietatea este bună pentru evitarea optimelor locale dar rău pentru că înseamnă că algoritmul nu se poate stabili niciodată la minimum O soluție la această dilemă este de a scădea treptat rata de învățare permițând algoritmului să se stabilească pe minimul global Un astfel de proces se numește (îimulated appe ) deoarece are asemănări cu procesul de călire din metalurgie, unde metalul topit se răcește lent Funcția care determină rata de învățare la fiecare iterație se numește Dacă rata de învățare scade prea repede, atunci m Puteți rămâne blocat într-un minim local sau chiar să rămâneți la jumătatea nivelului minim Dacă rata de învățare scade prea lent, atunci puteți sări în jurul minimului pentru o lungă perioadă de timp și să ajungeți la o soluție cvasi-optimă dacă încetați să învățați prea devreme Următorul cod implementează coborârea gradientului stocastic folosind o curbă simplă de învățare: # inițializare aleatorie în interval : în interval : = [ ; + ] = [ ” : + ] ( - ) = ( * + ) — ★ Prin convenție, repetăm ​​în runde de iterații; fiecare rundă se numește În timp ce codul Noțiuni fundamentale de învățare automată a coborârii în partea I se va repeta o dată pe întregul set de antrenament, codul afișat mai sus trece prin setul de antrenament o singură dată și ajunge la o soluție acceptabilă: aggay([ , ] ) Figura arată primii pași de antrenament (observați cât de neregulați sunt pașii) Rețineți că, deoarece eșantioanele sunt alese aleatoriu, unele dintre ele pot fi selectate de mai multe ori pe epocă, în timp ce altele nu pot fi selectate deloc Dacă doriți pentru a vă asigura că algoritmul se află în fiecare epocă este trecut prin fiecare probă, o altă abordare este să amestecați setul de antrenament, să treceți prin el probă cu probă, să amestecați din nou etc Cu toate acestea, convergența este de obicei mai lentă cu această abordare clasa, care implicit este configurată pentru a optimiza funcția de cost sub forma unei erori pătratice Următorul cod rulează epoci începând cu o rată de învățare și folosind un program standard de învățare Capitolul Modele de formare | (diferit de precedentul), dar nu aplică nicio regularizare ( =Niciuna; vom vorbi mai detaliat despre asta în scurt timp): = ( = , =Niciuna, = ) : ( , O) Și din nou găsiți o soluție foarte aproape de , care a fost returnat de ecuația normală: (argary , ) Ultimul algoritm de coborâre a gradientului luat în considerare se numește Este destul de ușor de înțeles, deoarece știți deja coborârea gradientului în lot și stocastic La fiecare pas, în loc să se calculeze gradienții pe baza unui set de antrenament complet (ca în coborârea gradientului în lot) sau doar a unui eșantion (ca în coborârea gradientului stocastic), coborârea gradientului în mini-lot calculează gradienții pe seturi mici aleatorii de mostre, care sunt numite Principalul avantaj al coborârii gradientului mini-batch față de dezavantajul coborârii gradientului stocastic este că puteți obține o creștere a performanței din optimizarea hardware a operațiunilor cu matrice, mai ales atunci când sunt utilizate GPU-uri algoritmul din spațiul parametrilor nu este la fel de neregulat ca în cazul SGD, mai ales cu minibatch destul de mare Ca urmare, coborârea gradientului mini-batch va ajunge să meargă puțin mai aproape de minim decât SGD Dar, pe de altă parte, poate îi va fi mai dificil să se îndepărteze de minimele locale (în cazul problemelor care suferă de minime locale, spre deosebire de regresia liniară, așa cum am văzut mai devreme) Figura arată căile parcurse de cei trei algoritmi de coborâre a gradientului în spațiul parametrilor în timpul antrenamentului În cele din urmă, toate se dovedesc a fi aproape de minim, dar traseul de coborâre a gradientului lotului se oprește de fapt la minim, în timp ce coborârea stocastică și a gradientului mini-loc continuă să se miște în jurul valorii minime rețineți că coborârea gradientului în lot durează mult timp pentru a finaliza fiecare pas, în timp ce coborârea gradientului stocastică și mi Partea I Fundamentele învățării automate nu va putea, de asemenea, să atingă un minim dacă aplicați x curbă bună de învățare Să comparăm algoritmii despre care am discutat până acum, pentru regresia liniară (rețineți că este numărul de mostre de antrenament și este numărul de caracteristici); aruncați o privire la tabel Ecuație normală Rapid Nu Lent Nu Regresie liniară Coborâre gradient lot Lentă Nu Rapid Da - Coborâre gradient stocastic Rapid Da Rapid > Da SGDRegressor Mini-loc Rapid Da Rapid > Da SGDRegressor Gradient Descent În timp ce ecuația normală poate efectua doar regresie liniară , veți vedea că algoritmii de coborâre în gradient pot fi folosiți pentru a antrena multe alte modele Capitolul Modele de antrenament După antrenament, aproape că nu există nicio diferență: toți algoritmii ajung să aibă modele foarte asemănătoare și fac predicții exact în același mod de fapt, mai complicat decât o linie dreaptă obișnuită? În mod surprinzător, puteți utiliza de fapt un model liniar pentru a se potrivi cu date neliniare O metodă simplă implică adăugarea puterilor fiecărei caracteristici ca caracteristici noi și apoi antrenarea modelului liniar pe un astfel de set extins de caracteristici, pe baza celui simplu prezentat în Fig (plus ceva zgomot ca = * -= ***+ + + Y - - - * Ecuația pătratică are forma y = ax + bx+ c | Partea I Noțiunile de bază ale învățării automate desigur, o linie dreaptă nu se va potrivi niciodată corect cu acest tip de date Așa că să folosim o clasă de la Scikit-Learn pentru a transforma datele noastre de antrenament adăugând pătratul (polinomul de gradul al-lea) al fiecărei caracteristici ca caracteristici noi (în acest caz există doar o caracteristică): = (=,' =Fals) ѵ = ; ;:s matrice ([- ] ) matrice ([- , ]) Acum conține caracteristica originală plus pătratul său În continuare, poti potrivi modelul la astfel de date de antrenament extinse (fig = O (argary , ([ ])) Predicții b Y X O - - - * Xj+ ! + când Nu e rău: modelul evaluează funcția ca y = de fapt, funcția originală a fost y - x^+ l Oxj + + Zgomot gaussian Capitolul Modele de antrenament | Rețineți că atunci când există multe caracteristici, regresia polinomială este capabilă să găsească relații între caracteristici (ceva ce nu poate face un model de regresie liniară simplă) Acest lucru este posibil prin faptul că clasa adaugă și toate combinațiile de caracteristici până la un anumit grad De exemplu, dacă există două caracteristici și , atunci c ar adăuga nu numai caracteristicile a , a , b și b , ci și combinațiile ab și b și ab transformă tabloul, „ (u + d)! care conține caracteristici într-o matrice care conține { caracteristici, unde și! sunt numere , care este egal cu x x x xn Atenție la creșterea explozivă combinatorie a numărului de caracteristici! În cazul rulării regresiei polinomiale de grad înalt, este posibil să vă potriviți mult mai bine datele de antrenament decât în ​​cazul regresiei liniare De exemplu, figura arată aplicarea unui model polinomial de de grade la datele de antrenament anterioare și compară rezultatul cu un model liniar pur și un model pătratic (modelul de regresie polinomială de grade) Partea I Fundamentele învățării automate Observați cum modelul polinomial de grade oscilează pentru a ajunge cât mai aproape de eșantioanele de antrenament de datele de antrenament, în timp ce un model liniar nu se adaptează la ele În acest caz, un model pătratic se va generaliza bine Acest lucru are sens, deoarece datele au fost generate folosind o ecuație pătratică, dar având în vedere că de obicei nu veți cunoaște funcția folosită pentru a genera datele, cum să decideți dacă cat de complex ar trebui sa fie modelul? Cum să aflați dacă modelul este supraadaptat sau subadaptat pe date? Capitolul a validat încrucișat performanța generalizării modelului Dacă, conform metricilor de validare încrucișată, modelul are performanțe bune pe datele de antrenament, dar generalizează slab, atunci modelul este supraadaptat Dacă modelul are performanțe slabe în ambele cazuri, atunci este subadaptat Aceasta este o modalitate de a spune că modelul este supraadaptat simplu sau prea complex O altă modalitate este de a privi : ei pun un grafic performanța modelului pe setul de antrenament și setul de testare în funcție de dimensiunea setului de antrenament (sau Pentru a obține astfel de diagrame, trebuie doar să antrenați modelul de mai multe ori pe subseturi de dimensiuni diferite, luate din setul de antrenament Următorul cod definește o funcție care trasează curbele de învățare a modelului pentru datele de antrenament date: Capitolul Modele de antrenament Haideți aruncați o privire la curbele de învățare ale unui model de regresie liniară obișnuită (linie dreaptă din Fig Măsuri ale setului de antrenament Este nevoie de câteva clarificări aici În primul rând, acordați atenție performanței modelului în cazul utilizării datelor de antrenament: atunci când există doar una sau două mostre în setul de antrenament, modelul poate fi complet adaptat la acestea, ceea ce explică începutul curbei cu eroare zero Dar pe măsură ce se adaugă eșantioane la setul de antrenament, o potrivire perfectă a modelului la datele de antrenament devine imposibilă, atât pentru că datele sunt zgomotoase, cât și pentru că sunt complet diferite de cele liniare Prin urmare, eroarea datelor de antrenament crește până când se stabilizează atunci când adăugarea de noi eșantioane la setul de antrenament nu face ca eroarea medie să fie mult mai bună sau mai înrăutățită Acum să trecem la performanța modelului pe datele de testare pe care modelul vede mai multe și mai multă predare eșantioane, se antrenează și eroarea de validare scade în consecință Cu toate acestea, linia dreaptă nu reușește să modeleze bine datele din nou, astfel încât eroarea se stabilizează aproape de altă curbă sunt apropiate unul de celălalt și destul de înalte Dacă modelul dvs este subadaptat pe datele de antrenament, atunci adăugarea mai multor mostre de antrenament nu vă va ajuta să alegeți un model mai complex sau să găsiți caracteristici mai bune Acum luați în considerare curbele de învățare ale unui model polinomial de gradul al treilea pe aceleași date regresie polinomială = regresie polinomială ([ ( PolynomialFeature: ( e:;ree= , include bias=False)), ( , LinearRegressio' ()), ]) reprezentați curbele de învățare (regresior polinomial y) Dimensiunea setului de antrenament Curbele de antrenament arata putin mai bine decat cele anterioare, dar exista doua diferente foarte importante Eroarea asupra datelor de antrenament este mult mai mica decat in cazul unui model de regresie liniara datele de testare, prezinta semn de supraadaptare Cu toate acestea, dacă aplicați un set de antrenament mult mai mare, cele două curbe continuă să convergă f O modalitate de a îmbunătăți un model supraadaptat este de a-i furniza date de antrenament incrementale până când eroarea de validare ajunge la eroarea de antrenament Un rezultat teoretic important al statisticilor și învățării automate este faptul că că eroarea de generalizare a modelului poate fi exprimată ca suma a trei erori foarte diferite Această parte a erorii de generalizare se datorează unor ipoteze incorecte, cum ar fi presupunerea că datele sunt liniare atunci când sunt de fapt pătratice Un model cu părtinire mare este Această parte se datorează suprasensibilității modelului la mici modificări ale datelor de antrenament Eroarea implică curățarea datelor (de exemplu, curățarea surselor de date, cum ar fi senzorii defecte sau identificarea și eliminarea valorii aberante) complexitatea unui model crește în mod obișnuit varianța acestuia și reduce părtinirea În schimb, reducerea complexității modelului crește părtinirea acestuia și reduce varianța De aceea se numește compromis Această noțiune de părtinire nu trebuie confundată cu noțiunea de termen de părtinire în modelele liniare (adică constrângeți) modelul: cu cât are mai puține grade de libertate, cu atât va fi mai dificil să-l suprasoliciți cu date De exemplu, o metodă simplă de regularizare a unui model polinom implică reducerea numărului de grade polinomiale trei moduri diferite de limitarea greutăților Regresia Ridge (numită și ) este o versiune regularizată a regresiei liniare: se adaugă la funcția de cost, egală cu „E” = ѳD Aceasta forțează algoritmul de învățare nu numai să se potrivească cu datele, ci și să păstreze Greutățile modelului cât mai mici Rețineți că membrul reg a funcției de cost ar trebui adăugată la funcția de cost numai în timpul antrenamentului Odată ce modelul a fost antrenat, veți dori să evaluați performanța modelului folosind o măsură de performanță neregularizată Diferența dintre funcția de cost aplicată în timpul antrenamentului și performanța măsura utilizată pentru validare este destul de comună, în care acestea pot fi diferite, în afară de regularizare, este că o funcție bună a costurilor de instruire ar trebui să aibă derivate care să fie convenabile pentru optimizare, în timp ce măsura de performanță utilizată pentru testare ar trebui să fie cât mai apropiată de Scopul final Un exemplu potrivit ar fi un clasificator, care este antrenat folosind o funcție de cost, cum ar fi (los; discutat mai târziu în capitol), dar evaluat utilizând precizie/rechemare Hiperparametrul controlează cât de mult trebuie să fie regularizat modelul Când a = , regresia crestei este doar o regresie liniară Capitolul Modele de antrenament | valoare foarte mare, toate ponderile devin extrem de aproape de zero, iar rezultatul este o linie plată prin mijlocul datelor Ecuația reprezintă funcția de cost a regresiei crestei, n deplasarea Ѳo nu este regularizată (suma începe cu i - , nu ) Dacă declarăm w ca vector de greutate caracteristică (de la Ѳi la Ѳp),